\documentclass[t,12pt,aspectratio=169]{beamer} % 16:9 宽屏比例，适合现代投影
\usepackage{ctex} % 中文支持
\usepackage{amsmath, amssymb} % 数学公式与符号
\usepackage{graphicx}
\usepackage{pythonhighlight}
\usepackage{url}
\usepackage{hyperref}
\usepackage{verbatim}

% 主题设置（推荐简洁风格）
\usetheme{Madrid}
\usecolortheme{default} % 可选：seahorse, beaver, dolphin 等

\title{应用回归分析第5章：自变量选择与逐步回归 }
\author{HXQ ET AL}

%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%
\begin{document}

\begin{frame}
  \titlepage
\end{frame}

%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%
%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%
\begin{frame}{第5章书本目录 }

\begin{enumerate}

\item[5.1.] 自变量选择对孤寂和预测的影响
\item[5.2.] 所有子集回归
\item[5.3.] 逐步回归

\end{enumerate}

\end{frame}


%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%
%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%
\begin{frame}{第5章PPT目录}

    \begin{enumerate}
    \item[5.1.1] 确定回归方程的自变量和函数形式
    \item[5.1.2] 全模型与子模型
    \item[5.1.3] 删除重要变量的后果
    \item[5.1.4] 评价回归方程的准则
    \item[5.1.5] 选择变量时需要注意的问题
    \item[5.1.6] 向前选择方法
    \item[5.1.7] 向后剔除方法
    \item[5.1.8] 逐步回归方法
    \item[5.1.a] 逐步回归的例子
    \end{enumerate}


\end{frame}

%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%
\begin{frame}{5.1.1 确定回归方程时的两个问题} 

\begin{itemize}\setlength{\itemsep}{0.2cm}
\item 确定回归方程时的两个问题：
    \begin{itemize}
    \item {\color{red}哪些变量应该进入回归方程？}
%    \item {\color{red}变量以什么形式进入回归方程？}
    \end{itemize}

\item 例如：给定某问题，下述哪个模型最好呢？
    \begin{itemize}
    \item 模型1: $y=\beta_0+\beta_1x_1+\beta_2x_2+\beta_3x_3+\beta_4x_4+\varepsilon$
    \item 模型2: $y=\beta_0+\beta_1x_1+\beta_2x_2+\beta_3x_3+\varepsilon$
    \item 模型3: $y=\beta_0+\beta_2x_2+\beta_3x_3+\varepsilon$
%    \item 模型3: $y=\beta_0+\beta_1x_1+\beta_2\ln(x_2)+\beta_{3}\exp(x_3) +\varepsilon$
    \end{itemize}

\end{itemize}

\end{frame}

%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%
\begin{frame}{5.1.2 全模型与子模型}  

\begin{itemize}
\item 全模型是指所有变量参与的回归模型：
 \[ y=\beta_0+\beta_1x_1+\beta_2x_2+\cdots+\beta_qx_q+\varepsilon \]
\item 子模型是只有部分变量参与的回归模型，例如如下，这里 $(p<q)$: 
 \[ y=\beta_0+\beta_1x_1+\beta_2x_2+\cdots+\beta_px_p+\varepsilon \]
\item 变量选择的具体问题：
    \begin{itemize}
    \item {\color{red}删除重要变量的后果}：即全模型正确时，子模型的参数估计的性质。
    \item {\color{red}保留多余变量的后果}：即子模型正确时，全模型的参数估计的性质。
    \end{itemize}
\end{itemize}

\end{frame}

%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%
\begin{frame}{5.1.3 删除重要变量的后果}  

\begin{itemize}
\item 记号与前提（设新的自变量观测值为 $(x_{01}, x_{02}, x_{03})$）：
    \begin{itemize}
    \item {\color{red}设全模型为 $y=\beta_0+\beta_1x_1+\beta_2x_2+\beta_3x_3+\varepsilon$ 是正确的，} \\
    参数估计为 $\hat{\beta}_0^*, \hat{\beta}_1^*, \hat{\beta}_2^*, \hat{\beta}_3^*$, 
    对新的自变量，预测因变量为 $\hat{y}_0^*$. 
    \item {\color{red}设子模型为 $y=\beta_0+\beta_1x_1+\beta_2x_2+\varepsilon$, 即删除了重要变量 $x_3$,} \\
    参数估计为 $\hat{\beta}_0, \hat{\beta}_1, \hat{\beta}_2$, 
    对新的自变量，预测因变量为 $\hat{y}_0$. 
    \end{itemize}
\item 结论：
    \begin{itemize}
    \item 一般情况下，子模型的参数估计是有偏的，例如 $\mathbb{E}(\hat{\beta}_2)\neq \beta_2$.
    \item 但是子模型的参数估计有较小的方差，例如 $\textrm{var}(\hat{\beta}_2) < \textrm{var}(\hat{\beta}_2^*)$.
    \item 子模型的预测也是有偏的，即 $\mathbb{E}(\hat{y}_0)\neq \mathbb{E}(y_0)$.
    \end{itemize}

\end{itemize}

\end{frame}

%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%
\begin{frame}{5.1.4 评价回归方程的准则}  

%\begin{itemize}
%\item 设有 $n$ 组数据，设要评价回归方程 
%\( y=\beta_0+\beta_1x_1+\beta_2x_2+\cdots+\beta_px_p+\varepsilon \).
%
%\vspace{-0.1cm}

\begin{enumerate}
\item 调整的复决定系数 $R_a^2$ 较大的模型比较好：
\[ R^2=1-\frac{SSE}{SST}, \hspace{0.4cm} {\color{red}\boxed{R_a^2=1-\frac{SSE/(n-p-1)}{SST/(n-1)}}} \] 
\item Mallows统计量 $C_p$ 较小的模型比较好：%接近自变量个数 $p$ 的模型比较好：
\[ {\color{red}\boxed{C_p = SSE/\hat{\sigma}^2 + (2p-n) }}\]
\item Akaike 信息准则 AIC 较小的模型比较好：
\[ {\color{red}\boxed{AIC = n\ln (SSE/n)+2p}} \]
\end{enumerate}
%\end{itemize}

\end{frame}

%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%
\begin{frame}{5.1.5 选择变量时需要注意的问题}  

\begin{itemize}

\item {\color{red}设有 $q$ 个自变量，则共有 $2^q$ 个线性回归模型。}
\item 当变量个数较少时，用最优子集法选择变量。
\item 当变量个数很多时，用下述快速搜索方法：
    \begin{itemize}
    \item 向前选择方法。
    \item 向后剔除方法。
    \item 逐步回归方法。
    \end{itemize}
    
\item 如果自变量之间存在多重共线性，则有几种选择：
    \begin{itemize}
    \item 先删除一些变量，再做变量选择。
    \item 不做变量选择，使用岭回归方法，或其它方法。
    \end{itemize}    
    
    
\end{itemize}

\end{frame}

%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%
\begin{frame}{5.1.6 向前选择方法}  

\begin{enumerate}
%\item 初始模型为 $y=\beta_0+\varepsilon$. 
%\item {\color{red}将与$y$ 的相关系数绝对值最大的自变量(不妨设 $x_1$)加入模型}。
%\item 检验候选模型 \(y=\beta_0+\beta_1x_1+\varepsilon \) 的回归系数 $\beta_1$ 是否显著不为零。
%\item 如果显著，那么保留$x_1$. 如果不显著，停止选择变量。  
%\item {\color{red}计算上述模型的残差与剩下的变量 $x_2,\cdots,x_q$ 也对 $x_1$ 做回归得到的残差之间的相关系数，
%取其绝对值最大的自变量(不妨设 $x_2$). }
%\item 检验候选模型 \(y=\beta_0+\beta_1x_1+\beta_2x_2+\varepsilon \) 的回归系数$\beta_2$是否显著不为零。
%\item 重复上述过程。
\item {\color{red}初始模型为 $y=\beta_0+\varepsilon$. 计算其AIC. }%设所有自变量为 $x_1,x_2,\cdots,x_q$.}
\item {\color{red}计算$q$个模型 \(y=\beta_0+\beta_ix_i+\varepsilon \) 的 AIC, 这里 $1\le i\le q$.}
\begin{enumerate}
\item	如果这些AIC都比初始模型的AIC来得大，则停止选择。
\item	否则选取AIC最小的那个作为候选模型。不妨设加入的是 $x_1$. 
\end{enumerate}

\item 检验候选模型 \(y=\beta_0+\beta_1x_1+\varepsilon \) 的回归系数 $\beta_1$ 是否显著不为零。
\begin{enumerate}
\item 如果显著，那么保留$x_1$, 候选模型成为当前模型。
\item 如果不显著，则停止选择。
\end{enumerate}
\item {\color{red}计算$q-1$个模型 \(y=\beta_0+\beta_1x_1+\beta_ix_i+\varepsilon \) 的 AIC, 这里 $2\le i\le q$. }
\item 如此重复直至考虑过所有变量，或已停止选择。

\end{enumerate}

\end{frame}

%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%
\begin{frame}{5.1.7 向后剔除方法}  

\begin{enumerate}
\item {\color{red}初始为全模型 $y=\beta_0+\beta_1x_1+\beta_2x_2+\cdots+\beta_qx_q+\varepsilon$. 计算其 AIC.}
%\item 循环直至不再删除变量：
%    \begin{enumerate}
%    \item {\color{red}找出参数估计 $\hat{\beta}_i$ 的t检验值的绝对值最小的那个变量 $x_i$.}
%    \item 如果这个变量的t 检验是不显著的，就删除这个变量。
%    \item 如果这个变量的t 检验是显著的，停止变量选择的过程。 
%    \end{enumerate}

\item {\color{red}删除$q$个变量中的任意1个，计算得到的$q$个模型的AIC.}
\begin{enumerate}
\item 若这些AIC都比全模型的AIC大，则停止变量选择。
\item 否则选择AIC最小的那个模型作为当前模型，它有$q-1$个自变量。
\end{enumerate}
\item {\color{red}删除$q-1$个变量中的任意1个，计算得到的$q-1$个模型的AIC.}
\begin{enumerate}
\item 若这些AIC都比当前模型的AIC大，则停止变量选择。
\item 否则选择AIC最小的那个模型作为当前模型，它有$q-2$个自变量。
\end{enumerate}
\item 如此重复，直至常数模型，或已停止选择。

\end{enumerate}

\end{frame}

%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%
\begin{frame}{5.1.8 逐步回归方法}  

\begin{enumerate}
\item 设共有 $q$ 个自变量。选定某个初始模型作为当前模型。\\
	一般初始模型选为 $y=\beta_0+\varepsilon$. 
\item 循环直至模型的AIC不再减小：
\begin{enumerate}
\item {\color{red}增加或删除一个变量，计算得到的 $q$ 个模型的AIC.}
\item 若这些AIC都比当前模型的AIC大，则停止选择。
\item 否则选择AIC最小的那个模型作为当前模型。
%\item 选择时使用 $R_a^2$, $C_p$ 或 $AIC$ 等准则选取最优模型。
\end{enumerate}

%\item 一个逐步回归的例子。设所有自变量为 $1, x_1,x_2,\cdots,x_9$. 加号表示把变量选进回归模型。
%\begin{center}
%\begin{tabular}{|c|c|c|c|c|c|c|c|c|c|c|}\hline 
%步数 & $1$ & $x_1$ & $x_2$ & $x_3$ & $x_4$ & $x_5$ & $x_6$ & $x_7$ & $x_8$ & $x_9$\\ \hline
%1 & + &  &  &  &  &  &  &  &  &   \\ \hline 
%2 & + &  &  &  & + &  &  &  &  &   \\ \hline 
%3 & + &  &  &  & + & + &  &  &  &   \\ \hline 
%4 & + &  &  &  & + & + & + &  &  &   \\ \hline 
%5 & + &  &  &  & + &  +  & + & + &  &   \\ \hline 
%%6 & + &  &  &  &  &  &  &  &  &   \\ \hline 
%\end{tabular}
%\end{center}



%\begin{enumerate}
%\item 选出与 $y$ 
%\item 
%\item 
%\end{enumerate}

\end{enumerate}

\end{frame}

%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%
\begin{frame}[fragile=singleslide]{5.1.a.1 逐步回归的例子：数据}  

{\footnotesize\color{blue}
\begin{verbatim}
    > longley
            x1      x2    x3    x4      x5   x6      y
    1947  83.0 234.289 235.6 159.0 107.608 1947 60.323
    1948  88.5 259.426 232.5 145.6 108.632 1948 61.122
    1949  88.2 258.054 368.2 161.6 109.773 1949 60.171
    1950  89.5 284.599 335.1 165.0 110.929 1950 61.187
    1951  96.2 328.975 209.9 309.9 112.075 1951 63.221
    ... ... 
    1959 112.6 482.704 381.3 255.2 123.366 1959 68.655
    1960 114.2 502.601 393.1 251.4 125.368 1960 69.564
    1961 115.7 518.173 480.6 257.2 127.852 1961 69.331
    1962 116.9 554.894 400.7 282.7 130.081 1962 70.551
\end{verbatim}
}

%1952  98.1 346.999 193.2 359.4 113.270 1952 63.639
%1953  99.0 365.385 187.0 354.7 115.094 1953 64.989
%1954 100.0 363.112 357.8 335.0 116.219 1954 63.761
%1955 101.2 397.469 290.4 304.8 117.388 1955 66.019
%1956 104.6 419.180 282.2 285.7 118.734 1956 67.857
%1957 108.4 442.769 293.6 279.8 120.445 1957 68.169
%1958 110.8 444.546 468.1 263.7 121.950 1958 66.513



\end{frame}

%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%
\begin{frame}[fragile=singleslide]{5.1.a.2 逐步回归的例子}  

\begin{enumerate}
\item[1.] 从全模型开始，逐步回归第一步的结果，删除 x1 可使 AIC 减小最多。

%> lm01<-lm(y~.,data=longley)
%> lm01.step<-step(lm01,direction='both')

{\small\color{blue}
\begin{verbatim}
Start:  AIC=-33.22
y ~ x1 + x2 + x3 + x4 + x5 + x6

       Df Sum of Sq     RSS     AIC
- x1    1   0.00292 0.83935 -35.163
- x5    1   0.00475 0.84117 -35.129
- x2    1   0.10631 0.94273 -33.305
<none>              0.83642 -33.219
- x6    1   1.49881 2.33524 -18.792
- x3    1   1.59014 2.42656 -18.178
- x4    1   2.16091 2.99733 -14.798
\end{verbatim}
}

\end{enumerate}

\end{frame}

%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%
\begin{frame}[fragile=singleslide]{5.1.a.3 逐步回归的例子}  

\begin{enumerate}
\item[2.] 逐步回归第二步的结果，删除 x5 可使 AIC 减小最多。

{\small\color{blue}
\begin{verbatim}
Step:  AIC=-35.16
y ~ x2 + x3 + x4 + x5 + x6

       Df Sum of Sq    RSS     AIC
- x5    1   0.01933 0.8587 -36.799
<none>              0.8393 -35.163
- x2    1   0.14637 0.9857 -34.592
+ x1    1   0.00292 0.8364 -33.219
- x6    1   1.52725 2.3666 -20.578
- x3    1   2.18989 3.0292 -16.628
- x4    1   2.39752 3.2369 -15.568
\end{verbatim}
}

\end{enumerate}

\end{frame}

%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%
\begin{frame}[fragile=singleslide]{5.1.a.4 逐步回归的例子}  

\begin{enumerate}
\item[3.] 逐步回归第三步的结果，AIC 已经最小，所以停止选择。\\
	注：逐步回归每次都要计算$q$个模型的AIC. 然后跟当前AIC比较。

{\small\color{blue}
\begin{verbatim}
Step:  AIC=-36.8
y ~ x2 + x3 + x4 + x6

       Df Sum of Sq    RSS     AIC
<none>              0.8587 -36.799
+ x5    1    0.0193 0.8393 -35.163
+ x1    1    0.0175 0.8412 -35.129
- x2    1    0.4647 1.3234 -31.879
- x6    1    1.8980 2.7567 -20.137
- x4    1    2.3806 3.2393 -17.556
- x3    1    4.0491 4.9077 -10.908
\end{verbatim}
}

\end{enumerate}

\end{frame}

%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%
%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%
\end{document}

